EVENTO
Framework para Execução de Workflows de Redes Filogenéticas em Ambientes de Computação de Alto Desempenho
Tipo de evento: Defesa de Dissertação de Mestrado
Nos últimos anos, o desenvolvimento de tecnologias como o sequenciamento de nova geração e a computação de alto desempenho possibilitou a execução de experimentos de bioinformática de alta complexidade e computacionalmente intensivos. Diferentes áreas da bioinformática necessitam utilizar plataformas de computação de alto desempenho para aproveitar do paralelismo e da distribuição de tarefas, por meio de tecnologias especializadas de sistemas de gerência de workflows científicos. Uma das áreas da bioinformática que necessitam da computação de alto desempenho é a filogenia, área que expressa as relações evolutivas entre genes e organismos, estabelecendo quais deles estão mais relacionados evolutivamente. A filogenia é usada em várias abordagens, como na classificação de espécies; na descoberta do parentesco de indivíduos; na identificação da origem de patógenos, e até na biologia da conservação. Uma forma de representar as relações filogenéticas é utilizando redes filogenéticas. Contudo, a construção dessas redes utiliza algoritmos computacionalmente intensivos e que requerem a constante manipulação dos diferentes dados de entrada. O presente trabalho visa o desenvolvimento de um framework para a construção de redes filogenéticas explícitas, modelando um workflow científico que agrega diferentes métodos para a construção das redes e para o tratamento dos dados de entrada necessários. O framework foi desenvolvido para possibilitar a utilização de múltiplos fluxos do workflow de forma automatizada, paralela e distribuída em uma única execução e também ser executável em ambientes de computação de alto desempenho, configurando uma tarefa desafiadora, uma vez que as ferramentas usadas não são desenvolvidas com foco nesse ambiente. Para orquestrar as tarefas do workflow, utilizou-se a biblioteca de programação paralela escalável Parsl, permitindo realizar otimizações na execução das tarefas do workflow, realizando um melhor controle de recursos. Foram desenvolvidas duas versões do framework, chamadas Single Partition e Multi Partition, diferindo na forma como os recursos são utilizados. Nos testes realizados, houve uma melhoria no tempo de execução de aproximadamente cinco vezes em comparação com a execução sequencial de um fluxo sem as otimizações. O framework foi validado utilizando dados públicos de genomas do vírus da Dengue, que foram processados, anotados e executados no framework utilizando o supercomputador Santos Dumont. A construção das redes filogenéticas explícitas dos genomas indicam que o framework desenvolvido é uma ferramenta funcional, eficiente e de fácil uso.Para assistir acesse: meet.google.com/oev-omfu-fjv
Data Início: 18/02/2022 Hora: 09:00 Data Fim: 18/02/2022 Hora: 13:00
Local: LNCC - Laboratório Nacional de Computação Ciêntifica - Webinar
Aluno: Rafael de Souza Terra - - LNCC
Orientador: Carla Osthoff Ferreira de Barros - Laboratório Nacional de Computação Científica - LNCC Diego Moreira de Araújo Carvalho - - Kary Ann del Carmen Ocaña Gautherot - Laboratório Nacional de Computação Científica - LNCC
Participante Banca Examinadora: Fabricio Alves Barbosa da Silva - FIOCRUZ - Kary Ann del Carmen Ocaña Gautherot - Laboratório Nacional de Computação Científica - LNCC Luiz Manoel Rocha Gadelha Júnior - German Cancer Research Center - DKFZ Marcelo Trindade dos Santos - Laboratório Nacional de Computação Científica - LNCC Maria Clicia Castro - - UERJ